极市分享|沈志强 如何让计算机自动生成稠密的视频描述（英特尔CVPR2017论文详解）

极市分享|沈志强如何让计算机自动生成稠密的视频描述（英特尔CVPR2017论文详解）

极市平台 2019-03-28

↑ 点击蓝字关注极市平台识别先机创造未来

| 极视角线上分享第22期 |

自动生成视频描述是一个新兴的研究方向，它的基本任务是给出一段视频，让计算机自动生成一句或者多句语言来描述这个视频的内容。该任务由于结合了计算机视觉（CV）和自然语言处理（NLP）两个领域的知识，因此具有非常大的挑战性。本期我们邀请到了UIUC 联合培养博士沈志强，来为我们解读他最新的收录于CVPR2017的论文《Weakly Supervised Dense Video Captioning》，向大家讲述如何进行视频描述的自动生成。

活动信息

主题：如何让计算机自动生成稠密的视频描述（Dense Video Captioning）

时间：北京时间周三（11月22日）晚20:00-21:30

嘉宾信息

沈志强

UIUC联合培养博士，导师Thomas S. Huang教授

沈志强，UIUC 联合培养博士（访问学生），导师Thomas S. Huang教授。曾在因特尔中国研究院（Intel Labs China）进行实习，在视频描述和目标检测领域相继发表CVPR2017和ICCV2017论文。研究方向包括计算机视觉（目标检测、视频描述、细粒度分类等），深度学习，机器学习等。个人主页为 http://www.zhiqiangshen.com/ 。

关于分享

➤分享背景

近年来，如何自动生成视频描述引起了研究人员的广泛兴趣
视频描述模型的训练通常需要大量复杂的并且带有一定主观性的人工标注。
标注人员具有一定主观性，我们既不知道他的描述是针对哪个事件，也不知道他所描述的事件对应不同帧上的哪一个区域。

➤分享内容

英特尔CVPR2017 Dense Video Captioning详解，对于单个输入视频，可以生成多个差异化的句子，极大地丰富了视频描述的内容。
目标检测（DSOD）和网络压缩（networkslimming），以及嘉宾投稿于CVPR2018的DSOD升级版。相比DSOD，模型变得更小，精度更高，收敛速度更快。同时在PASCAL VOC Comp3 Leaderboard上比第二名提升了10%mAP以上。（时间允许的条件下）

参与方式

长按下图，识别图中二维码，关注“极市平台”公众号，回复22即可获取直播链接。如有想参加极视角群内分享的，欢迎回复“加群”获取加群信息。

更多新鲜出炉的线上分享信息，实时更新的行业动态、干货分享，敬请关注“极市平台”。

往期回顾

极视角致力于打造最专业的的视觉算法开发与分发平台极市，特邀请行业内专业人员每周为大家分享视觉领域内的干货及经验，目前已成功举办21期线上分享。近期在线分享查看：

许华哲|基于视觉的深度学习的自动驾驶实现模型

申发龙 | 关于语义图像分割：FCN和Guidance CRF

郑哲东 | Deep-ReID：行人重识别的深度学习方法

边佳旺 | 稳定的图像特征匹配以及快速的GMS方案

王超 | 走进GAN的世界

郑华滨 | 从PM到GAN—LSTM之父Schmidhuber横跨22年的怨念

王蒙蒙 | 基于计算机视觉的目标跟踪算法概览